第4天,我們來聊聊數據。今天沒有程式也沒有數學,開心吧。(謎之音:等等,你是不是報錯組別了。呃!別急大概第15天就會開始聊Google ML了。如果還撐住的話 XD)
好的,看了前一天分享,你應該在腦海裡會有一個神經網路的動畫在跳動。在那一大堆線裡,前面連著資料的輸入,後面連著分類的輸出,輸出結果再跟標籤比對,不正確的話,再透過反向傳播,是改變線的權重。再重來一次。直到比對正確為止。
上面說的過程,你覺得那個環節很不容易。是的,是標籤。在資料上加上標籤是很不容易的事。就像你去歐洲玩,隨便拍個1千張照片應該是很平常的事,但是拍完後沒再打開也是很平常的事。如果要你給每一張照片做註解整理一下,大概又是更難的事。懶人如我,頂多弄個資料夾,取名2019法瑞義,再把照片放進去就算仁至義盡,大功告成。給資料加上標籤真的是很累人的事。而且標籤還可能打錯,哈。
在看到李飛飛的演講跟報導後,我就對數據的重要性有感覺,所以今天要介紹你幾個影片。
李飛飛:我跟我的博士生鄧嘉說,我說你要是自己不吃不喝不睡,每天就坐在那標註這個圖片,你大概可以20年畢業吧。(影片傳送門)
哈,這句話實在太令我印象深刻了(好苦命的研究生!)。所以我就深深的記住,每次提到資料對深度學習的重要性,我往往就想到這個畫面。
你應該會看到,電腦影像辨識的困難、進步、限制。以及未來的發展。還有167個國家,約5萬人參與標註的圖像數據庫的ImageNet。
數據標註已經成為一個很大的產業,也是重要的發展。所以你可以看到很多關於數據標註產業的報導,因為沒有數據,沒法做研究阿!
不過數據的收集要注意各國法律的規定。不然就會有很大的問題。
當然你知道數據很重要後,也要對收集數據的程式有些感覺
然後你可能也不知不覺的在參與數據的標註,哈。
在練習 ML Study Jam 的課程時,倒是不用煩惱數據的事,課程裡的數據都找好了,只要匯入到 BigQuery 然後就可以繼續了。
今天就醬子吧。明天再戰。
希望你想起有標註的數據為什麼對深度學習很重要時,也有一個畫面閃過。
好,第4天。結束。